自2009年第一次“双11”起,如今过去11年,“双11”也从原来孤单的“光棍节”,变成全民购物狂欢节。果然对象什么的靠一边去,买买买才是王道~今年更是创下新记录:天猫双11全天交易额达2684亿,零点订单峰值达到每秒54.4万笔,可围绕地球9圈共12.92亿个菜鸟物流订单。最重要的是,100%核心系统部署在阿里公共云上。在大家买买买的背后,对于技术人员来说,从网络到服务器到数据库,均是阿里技术的一场“大阅兵”。神龙服务器、飞天大数据平台MaxCompute、阿里巴巴实时计算Flink、飞天AI平台、POLARDB、OceanBase等技术平台可能大家均有所了解,可如果没有以下的TA,大家买买买的计划恐怕要落空了。11月18日,被主持人戏称是“拉电闸的”——阿里云智能基础设施事业部资深技术专家唐陵波(花名:龙现)表示, 在做基础设施的人眼里,双11是“华山论剑,功夫在诗外”。这里头的武功(技术)不是一天练成的,想在华山之巅论道,需苦练技术创新的内功和打造赋能的武器才行。那么他们又出了多少招式来支撑所有上面业务系统的硬件和软件呢?
龙现表示,软件弹性是很好做的,但基础设施是硬核科技,一个建好的数据中心很难做弹性,一台服务器很难弹性伸缩。那么软硬件该如何做到一体呢?2019年,阿里巴巴启用了南通、深圳、张北等三地绿色数据中心备战双11,承担了70%的流量。其实自2010年,阿里开始自建数据中心,并把绿色节能降耗放在重要位置。因为阿里有上百万台服务器在为全社会提供计算服务,每降低一台服务器的能耗,总的能节约不少资源。据统计,传统数据中心有近40%的能源消耗在散热制冷上,能源使用效率很低。因此在2016年,阿里云推出了全球首台“全浸没液冷服务器”,直接把服务器浸泡在特殊冷却液里!这样服务器产生热量可被冷却液直接带走进入外循环,从而自然冷却,这样的话全程散热的能耗几乎为零,整体节能70%。
据龙现介绍,现在液冷服务器已进化到2.0版本,并在阿里做了大规模的部署。在绿色数据中心里,不仅有自主研发的液冷技术,还有深层湖水制冷、低温空气制冷等散热方式,降低数据中心的能耗,另外AI也被应用到数据中心里,算法模型可根据外部温度优化服务器负载,实现智能化电力和热能管控。通过这些技术措施,将每万笔电商交易的耗电量控制在2度电以内,这意味着仅双11的交易假如都放在液冷服务器上,一天会节省15万度电。目前,阿里巴巴数据中心已经遍布200多个国家和地区。数据中心作为驱动一切商业行为和商业流量的基础,不仅能够支持双十一的峰值,还提供弹性的服务。在绿色数据中心里面PUE(Power Usage Effectiveness,评价数据中心能源效率的指标,PUE = 数据中心总设备能耗/IT设备能耗)逼近1.0。龙现在会上透露一个好消息,液冷服务器相关技术即将开源,包括液冷服务器、冷却夜、电源等,这些将可作为对外商用的技术被整个生产链应用。对此,很多人心中的疑问:住在张北的人双11会不会更快地抢到货呢?
龙现说,其实没有什么区别,因为数据从数据中心出来到手机端还要经过层层防护、安全措施、业务调度等关卡。2018年,阿里发布同时支持OpenChannel和Nvme的双模SSD产品,AliFlash V3。AliFlash V3适配主流3D TLC/QLC NAND flash,实现了从NAND颗粒、控制器芯片、固件、驱动、用户态I/O栈的全链路打通。现在AliFlash广泛运用在存储场景里面,通过硬件的创新和软件技术的结合,我们现在做到了软件一体化上下的协同设计,在性能和功能上都有突破性的创新。在2017年云栖大会上阿里推出自研神龙服务器,实现计算存储分离,超高性能云盘ESSD,大规模VPC网络。与传统物理机相比,神龙服务器的性能提升20%以上。
倚天剑:RDMA高性能网络
随着阿里的快速发展,对网络设备从整体架构上做了优化,从交换机到光模块都做了定制化的优化。其中,自研400G硅光模块,龙现比划道,这么小的东西在整个数据中心的网络成本里面占30%。自研网络交换机NOS是今年的“明星产品”,它承担了大部分的核心网络流量。龙现说,从网络的层面看,很不希望大家能感知到我们的存在。因为希望网络就像马路一样,能让大家平稳地坐车,不希望遇到坑或者减速档。在这背后,阿里做了很多工作。自研交换机就是阿里在网络领域的的技术创新,实际上是网络界的去IOE。通过自研的技术把交换机打开,用自研硬件或第三方硬件,开源操作系统做交换机,这样让网络更加开放。今年自存储计算分离之后的云盘和核心数据库的核心交易量,在去年的基础上发展了3倍,这些离不开阿里的数据中心网络。
弹性跨域访问和敏捷供应链
有一些企业会遇到这样的情况:新部署的流量是在公有云上,而仍一部分传统业务来不及挂到云上,对此,阿里支持弹性跨域访问。龙现爆料道,从当初阿里决定双11上云用神龙服务器,到最后上线的时间很短,只有两个月时间,供货、备货、测试都非常紧张。但是供应链通过优化库存、优化流程来帮助供应链厂商优化资源共享,来提高供应链的交付,支持双11上云。最后龙现打趣道,希望每天都可以双11,感受流量的峰值,然后提供全球可用、高性能、高可靠的硬核基础设施。热 文 推 荐
☞程序员正在消失?
☞他的公司1年令比特币暴跌数次,上榜福布斯捐10亿美元的跨界传奇
点击阅读原文参与开发者大调查,好礼送不停!